Cơ sở dữ liệu là gì? Các công bố khoa học về Cơ sở dữ liệu

Cơ sở dữ liệu là một tập hợp có tổ chức các dữ liệu liên quan, được lưu trữ và quản lý trên một hệ thống máy tính hoặc trong một kho lưu trữ dữ liệu. Cấu trúc c...

Cơ sở dữ liệu là một tập hợp có tổ chức các dữ liệu liên quan, được lưu trữ và quản lý trên một hệ thống máy tính hoặc trong một kho lưu trữ dữ liệu. Cấu trúc cơ sở dữ liệu giúp tổ chức, lưu trữ và truy xuất dữ liệu một cách hiệu quả. Cơ sở dữ liệu có thể dùng để lưu trữ thông tin về sản phẩm, khách hàng, nhân viên, giao dịch, và nhiều loại dữ liệu khác.
Cơ sở dữ liệu là một hệ thống tổ chức và lưu trữ dữ liệu theo một cấu trúc nhất định, cho phép truy xuất, cập nhật và quản lý dữ liệu một cách hiệu quả. Cơ sở dữ liệu được sử dụng trong hầu hết các ứng dụng ngành công nghiệp và doanh nghiệp, từ hệ thống quản lý khách hàng, quản lý sản phẩm, quản lý nhân viên đến hệ thống giao dịch và hệ thống kế toán.

Cơ sở dữ liệu bao gồm các thành phần sau:

1. Bảng (Table): Là đơn vị lưu trữ dữ liệu cơ bản và bao gồm hàng (record) và cột (field). Mỗi hàng trong bảng thể hiện một dòng dữ liệu và mỗi cột thể hiện một thuộc tính hoặc trường dữ liệu.

2. Các quan hệ (Relationships): Khi có nhiều bảng trong một cơ sở dữ liệu, các quan hệ được thiết lập để kết nối các bảng với nhau dựa trên các khóa chính (primary key) và khóa ngoại (foreign key). Quan hệ này giúp cho việc truy xuất và truy vấn dữ liệu giữa các bảng trở nên dễ dàng và linh hoạt.

3. Index (Chỉ mục): Chỉ mục được sử dụng để cải thiện hiệu suất truy xuất dữ liệu. Chúng giúp tìm kiếm và sắp xếp dữ liệu một cách nhanh chóng bằng cách tạo ra một danh sách cấu trúc của các giá trị dữ liệu quan trọng.

4. Truy vấn (Query): Truy vấn là công cụ để truy xuất, lọc và xử lý dữ liệu trong cơ sở dữ liệu theo các tiêu chí và yêu cầu cụ thể. Truy vấn giúp lấy dữ liệu từ một hoặc nhiều bảng, tính toán, tổng hợp dữ liệu và cập nhật dữ liệu trong cơ sở dữ liệu.

5. Hệ quản trị cơ sở dữ liệu (DBMS): Là phần mềm được sử dụng để quản lý và điều khiển cơ sở dữ liệu. DBMS giúp tạo cơ sở dữ liệu, tạo, sửa đổi và xóa dữ liệu, quản lý quyền truy cập, và hỗ trợ các tính năng bảo mật dữ liệu.

Cơ sở dữ liệu là một phần quan trọng trong hệ thống thông tin, cho phép lưu trữ và truy xuất dữ liệu một cách hiệu quả, từ đó hỗ trợ quá trình ra quyết định, tối ưu hóa hoạt động kinh doanh và phục vụ khách hàng tốt hơn.

Danh sách công bố khoa học về chủ đề "cơ sở dữ liệu":

Bộ công cụ phân tích bộ gen: Một khung MapReduce cho việc phân tích dữ liệu giải trình tự DNA thế hệ tiếp theo Dịch bởi AI
Genome Research - Tập 20 Số 9 - Trang 1297-1303 - 2010

Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.

#khoa học #giải trình tự DNA #Bộ Gen 1000 #GATK #MapReduce #phân tích bộ gen #sự biến dị di truyền #công cụ NGS #phân giải song song #SNP #Atlas Bộ Gen Ung thư
Một số mô hình ước tính sự không hiệu quả về kỹ thuật và quy mô trong phân tích bao hàm dữ liệu Dịch bởi AI
Management Science - Tập 30 Số 9 - Trang 1078-1092 - 1984

Trong bối cảnh quản lý, lập trình toán học thường được sử dụng để đánh giá một tập hợp các phương án hành động thay thế có thể, nhằm lựa chọn một phương án tốt nhất. Trong khả năng này, lập trình toán học phục vụ như một công cụ hỗ trợ lập kế hoạch quản lý. Phân tích Bao hàm Dữ liệu (DEA) đảo ngược vai trò này và sử dụng lập trình toán học để đánh giá ex post facto hiệu quả tương đối của các thành tựu quản lý, dù chúng được lập kế hoạch hoặc thực hiện như thế nào. Lập trình toán học do đó được mở rộng để sử dụng như một công cụ kiểm soát và đánh giá các thành tựu quá khứ cũng như công cụ hỗ trợ lập kế hoạch cho hoạt động tương lai. Hình thức tỷ lệ CCR được giới thiệu bởi Charnes, Cooper và Rhodes, như một phần của cách tiếp cận Phân tích Bao hàm Dữ liệu, bao hàm cả sự không hiệu quả về kỹ thuật và quy mô thông qua giá trị tối ưu của hình thức tỷ lệ, được thu được trực tiếp từ dữ liệu mà không cần yêu cầu định trước các trọng số và/hoặc phân định rõ ràng các dạng chức năng giả định của mối quan hệ giữa đầu vào và đầu ra. Một sự tách biệt giữa hiệu quả kỹ thuật và hiệu quả quy mô được thực hiện bởi các phương pháp phát triển trong bài báo này mà không làm thay đổi các điều kiện sử dụng DEA trực tiếp trên dữ liệu quan sát. Sự không hiệu quả về kỹ thuật được xác định bởi sự thất bại trong việc đạt được các mức đầu ra tốt nhất có thể và/hoặc việc sử dụng quá nhiều lượng đầu vào. Các phương pháp để xác định và điều chỉnh phạm vi của những sự không hiệu quả này, được cung cấp trong các công trình trước, được minh họa. Trong bài báo hiện tại, một biến mới được giới thiệu, cho phép xác định liệu các hoạt động được thực hiện trong các vùng có lợi suất tăng, không đổi hay giảm (trong các tình huống đa đầu vào và đa đầu ra). Các kết quả được thảo luận và liên hệ không chỉ với kinh tế học cổ điển (đầu ra đơn) mà còn với các phiên bản kinh tế học hiện đại hơn được xác định với “lý thuyết thị trường có thể tranh đấu.”

#Phân tích bao hàm dữ liệu #không hiệu quả kỹ thuật #không hiệu quả quy mô #lập trình toán học #lý thuyết thị trường có thể tranh đấu
Greengenes, Cơ sở dữ liệu gen 16S rRNA được kiểm tra chimera và bàn làm việc tương thích với ARB Dịch bởi AI
Applied and Environmental Microbiology - Tập 72 Số 7 - Trang 5069-5072 - 2006
TÓM TẮT

Cơ sở dữ liệu gen 16S rRNA ( http://greengenes.lbl.gov ) giải quyết những hạn chế của các kho dữ liệu công cộng bằng cách cung cấp kiểm tra chimera, căn chỉnh chuẩn và phân loại thuế bằng nhiều phân loại đã được công bố. Đã phát hiện ra rằng có sự không nhất quán trong thuật ngữ phân loại giữa các người quản lý ngay cả ở cấp độ ngành. Các chimera có khả năng đã được xác định trong 3% các trình tự môi trường và trong 0.2% các bản ghi từ các mẫu đơn lập. Các trình tự môi trường đã được phân loại thành 100 dòng giống cấp ngành trong ArchaeaBacteria .

Metascape cung cấp nguồn tài nguyên định hướng sinh học cho việc phân tích các tập dữ liệu cấp hệ thống Dịch bởi AI
Nature Communications - Tập 10 Số 1
Tóm tắt

Một thành phần quan trọng trong việc diễn giải các nghiên cứu cấp hệ thống là suy diễn các con đường sinh học phong phú và các phức hợp protein có trong các tập dữ liệu OMICs. Việc phân tích thành công yêu cầu tích hợp một bộ dữ liệu sinh học hiện có rộng rãi và áp dụng một quy trình phân tích vững chắc để tạo ra các kết quả có thể diễn giải được. Metascape là một cổng thông tin dựa trên web được thiết kế để cung cấp một nguồn tài nguyên chú thích và phân tích danh sách gen toàn diện cho các nhà sinh học thực nghiệm. Về các tính năng thiết kế, Metascape kết hợp sự phong phú chức năng, phân tích互译, chú thích gen và tìm kiếm thành viên để tận dụng hơn 40 cơ sở kiến thức độc lập trong một cổng tích hợp duy nhất. Ngoài ra, nó còn tạo điều kiện cho việc phân tích so sánh các tập dữ liệu qua nhiều thí nghiệm độc lập và chính xác. Metascape cung cấp trải nghiệm người dùng đơn giản hóa một cách đáng kể thông qua giao diện phân tích nhanh một cú nhấp chuột để tạo ra các đầu ra có thể diễn giải được. Tóm lại, Metascape là một công cụ hiệu quả và tối ưu cho các nhà sinh học thực nghiệm để phân tích và diễn giải một cách toàn diện các nghiên cứu dựa trên OMICs trong kỷ nguyên dữ liệu lớn.

#Metascape #phân tích dữ liệu OMICs #con đường sinh học #phức hợp protein #sinh học thực nghiệm
Phương pháp quỹ đạo phân tử tự trùng khớp: Mở rộng cơ sở kiểu Gaussian cho nghiên cứu quỹ đạo phân tử của các phân tử hữu cơ Dịch bởi AI
Journal of Chemical Physics - Tập 54 Số 2 - Trang 724-728 - 1971

Một tập hợp cơ sở mở rộng của các hàm số nguyên tử được biểu diễn dưới dạng các tổ hợp tuyến tính cố định của các hàm Gaussian được trình bày cho hydro và các nguyên tố hàng đầu tiên từ cacbon đến flo. Trong tập này, được mô tả là 4–31 G, mỗi lớp vỏ bên trong được đại diện bởi một hàm cơ sở duy nhất được lấy từ tổng của bốn hàm Gaussian và mỗi quỹ đạo hoá trị được tách thành các phần bên trong và bên ngoài được mô tả bởi ba và một hàm Gaussian, tương ứng. Các hệ số mở rộng và số mũ Gaussian được xác định bằng cách tối thiểu hóa năng lượng đã tính toán tổng thể của trạng thái cơ bản nguyên tử. Cơ sở dữ liệu này sau đó được sử dụng trong các nghiên cứu quỹ đạo phân tử đơn xác định của một nhóm nhỏ phân tử đa nguyên tử. Tối ưu hóa các yếu tố tỷ lệ vỏ hoá trị cho thấy rằng có sự tái chia tỷ lệ đáng kể của các hàm số nguyên tử trong các phân tử, các hiệu ứng lớn nhất được quan sát thấy ở hydro và cacbon. Tuy nhiên, phạm vi tối ưu của các hệ số tỷ lệ cho mỗi nguyên tử là đủ nhỏ để cho phép lựa chọn một bộ tiêu chuẩn phân tử. Việc sử dụng cơ sở chuẩn này cung cấp các hình học cân bằng lý thuyết hợp lý với thí nghiệm.

#Hàm Gaussian #cơ sở dữ liệu phân tử #ổn định cấu trúc #tối ưu hóa năng lượng #quỹ đạo phân tử
Cơ sở Dữ liệu 14C Mở Rộng và Chương Trình Hiệu Chỉnh Tuổi CALIB 3.0 14C Dịch bởi AI
Radiocarbon - Tập 35 Số 1 - Trang 215-230 - 1993

Chương trình hiệu chỉnh niên đại, CALIB (Stuiver & Reimer 1986), được phát hành lần đầu vào năm 1986 và sau đó được chỉnh sửa vào năm 1987 (phiên bản 2.0 và 2.1), đã được cập nhật. Chương trình năm 1993 (phiên bản 3.0) bao gồm các cải tiến bổ sung và một bộ dữ liệu hiệu chỉnh mới bao phủ gần 22,000 năm cal (≈18,400 năm 14C). Dữ liệu mới này, cũng như các sửa đổi cho bộ dữ liệu đã sử dụng trước đây, được lấy từ nỗ lực hiệu chỉnh thang thời gian kéo dài 6 năm (1986–1992) của một số phòng thí nghiệm.

Phương pháp tương tác so với các phương pháp truyền thống: Một khảo sát dữ liệu bài kiểm tra cơ học của hơn sáu nghìn sinh viên cho các khóa học vật lý cơ bản Dịch bởi AI
American Journal of Physics - Tập 66 Số 1 - Trang 64-74 - 1998

Một khảo sát dữ liệu trước/sau bài kiểm tra sử dụng bài kiểm tra Chẩn đoán Cơ học Halloun–Hestenes hoặc Đánh giá Khái niệm Lực gần đây hơn được báo cáo cho 62 khóa học vật lý cơ bản với tổng số sinh viên đăng ký N=6542. Một phân tích nhất quán trên các nhóm sinh viên đa dạng tại các trường trung học, cao đẳng và đại học đạt được nếu một đo lường thô về hiệu quả trung bình của một khóa học trong việc thúc đẩy hiểu biết khái niệm được coi là lợi ích chuẩn hóa trung bình 〈g〉. Lợi ích nay được xác định là tỷ lệ giữa lợi ích trung bình thực tế (%〈post〉−%〈pre〉) với lợi ích trung bình tối đa có thể (100−%〈pre〉). Mười bốn khóa học “truyền thống” (T) (N=2084) mà ít hoặc không sử dụng các phương pháp tương tác-engagement (IE) đạt được lợi ích trung bình 〈g〉T-ave=0.23±0.04 (độ lệch chuẩn). Ngược lại, 48 khóa học (N=4458) mà sử dụng đáng kể các phương pháp IE đạt được lợi ích trung bình 〈g〉IE-ave=0.48±0.14 (độ lệch chuẩn), gần hai độ lệch chuẩn của 〈g〉IE-ave vượt trên lợi ích của các khóa học truyền thống. Kết quả cho 30 (N=3259) trong số 62 khóa học trên về bài kiểm tra Cơ học Cơ sở vấn đề của Hestenes–Wells ngụ ý rằng các chiến lược IE nâng cao khả năng giải quyết vấn đề. Kết quả từ các bài kiểm tra khái niệm và giải quyết vấn đề mạnh mẽ gợi ý rằng việc sử dụng phương pháp IE trong lớp học có thể tăng cường hiệu quả của các khóa học cơ học vượt xa so với những gì có được trong thực hành truyền thống.

#phương pháp tương tác #phương pháp truyền thống #khảo sát dữ liệu #bài kiểm tra cơ học #hiệu quả khóa học #hiểu biết khái niệm #khả năng giải quyết vấn đề
Phân Tích Yếu Tố Ma Trận Dương: Mô hình yếu tố không âm với tối ưu hóa sử dụng ước lượng lỗi của giá trị dữ liệu Dịch bởi AI
Environmetrics - Tập 5 Số 2 - Trang 111-126 - 1994
Tóm tắt

Một biến thể mới tên là ‘PMF’ trong phân tích yếu tố được mô tả. Giả định rằng X là một ma trận của dữ liệu quan sát và σ là ma trận đã biết của độ lệch chuẩn của các phần tử trong X. Cả X và σ có kích thước n × m. Phương pháp giải quyết vấn đề ma trận song tuyến tính X = GF + E ở đây G là ma trận yếu tố bên trái chưa biết (điểm số) có kích thước n × p, F là ma trận yếu tố bên phải chưa biết (tải trọng) có kích thước p × m, và E là ma trận dư. Vấn đề được giải bằng phương pháp bình phương tối thiểu có trọng số: GF được xác định sao cho chuẩn Frobenius của E chia từng phần tử theo σ được tối thiểu hóa. Hơn nữa, giải pháp được ràng buộc để tất cả các phần tử của GF phải không âm. Kết quả cho thấy rằng các giải pháp qua PMF thường khác biệt với các giải pháp từ phân tích yếu tố thông thường (FA, tức là phân tích thành phần chính (PCA) tiếp theo là xoay vòng). Thông thường PMF cung cấp sự phù hợp tốt hơn đối với dữ liệu hơn FA. Ngoài ra, kết quả của PF được đảm bảo không âm, trong khi kết quả của FA thường không thể xoay vòng để loại bỏ mọi phần tử âm. Các ứng dụng tiềm năng khác nhau của phương pháp mới này được thảo luận ngắn gọn. Trong dữ liệu môi trường, các ước lượng lỗi của dữ liệu có thể thay đổi lớn và tính không âm thường là một tính năng cần thiết của các mô hình cơ bản. Do đó, kết luận rằng PMF phù hợp hơn FA hoặc PCA trong nhiều ứng dụng môi trường. Các ví dụ về ứng dụng thành công của PMF được trình bày trong các bài báo đồng hành.

#Phân Tích Ma Trận Dương #Ứng dụng Môi Trường #Không Âm #Ước Lượng Lỗi #Phân Tích Thành Phần Chính #Bình Phương Tối Thiểu Có Trọng Số #Phù Hợp Dữ Liệu
Phân tích cấu trúc thứ cấp của protein từ quang phổ phân cực tròn: Phương pháp và cơ sở dữ liệu tham khảo Dịch bởi AI
Biopolymers - Tập 89 Số 5 - Trang 392-400 - 2008
Tóm tắt

Quang phổ phân cực tròn (CD) đã là một phương pháp hữu ích cho việc phân tích cấu trúc thứ cấp của protein trong nhiều năm. Với sự ra đời của quang phổ phân cực tròn bức xạ đồng bộ (SRCD) và các cải tiến trong thiết bị cho CD thông thường, dữ liệu tại bước sóng ngắn hơn có thể thu được và nội dung thông tin của quang phổ cũng đã tăng lên. Ngoài ra, các phương pháp tính toán và sinh tin học mới đã được phát triển cùng với việc tạo ra các cơ sở dữ liệu tham khảo mới, điều này cải thiện và tạo điều kiện thuận lợi cho việc phân tích quang phổ CD. Bài báo này bàn về những phát triển gần đây trong phân tích cấu trúc thứ cấp của protein, bao gồm các tính năng của máy chủ phân tích DICHROWEB. © 2007 Wiley Periodicals, Inc. Biopolymers 89: 392–400, 2008.

Bài báo này được xuất bản lần đầu trực tuyến dưới dạng bản thảo đã được chấp nhận. Ngày "Xuất bản trực tuyến" tương ứng với phiên bản bản thảo. Bạn có thể yêu cầu một bản sao của bản thảo bằng cách gửi email cho văn phòng biên tập Biopolymers tại [email protected]

Phát Triển Bộ Dữ Liệu Lượng Mưa Hàng Ngày Lưới Mới Độ Phân Giải Cao (0.25° × 0.25°) cho Giai Đoạn Dài (1901-2010) ở Ấn Độ và So Sánh với Các Bộ Dữ Liệu Tồn Tại Trong Khu Vực Dịch bởi AI
Mausam - Tập 65 Số 1 - Trang 1-18

TÓM TẮT. Nghiên cứu trình bày sự phát triển của bộ dữ liệu lượng mưa lưới theo ngày mới (IMD4) với độ phân giải không gian cao (0.25° × 0.25°, vĩ độ × kinh độ) bao phủ một khoảng thời gian dài 110 năm (1901-2010) trên đất liền chính của Ấn Độ. Nghiên cứu cũng đã so sánh IMD4 với 4 bộ dữ liệu lượng mưa lưới theo ngày khác với các độ phân giải không gian và thời gian khác nhau. Để chuẩn bị dữ liệu lưới mới, các ghi nhận lượng mưa hàng ngày từ 6955 trạm đo mưa ở Ấn Độ đã được sử dụng, đây là số lượng trạm cao nhất được sử dụng cho tới nay trong các nghiên cứu như vậy. Bộ dữ liệu lưới này được phát triển sau khi thực hiện kiểm soát chất lượng các trạm đo mưa cơ bản. So sánh IMD4 với các bộ dữ liệu khác cho thấy rằng các đặc điểm khí hậu và biến đổi của lượng mưa trên Ấn Độ được suy ra từ IMD4 có thể so sánh với dữ liệu lượng mưa lưới theo ngày hiện có. Ngoài ra, phân bố lượng mưa không gian như các khu vực mưa lớn ở các vùng địa hình của bờ biển phía tây và khu vực đông bắc, lượng mưa thấp ở phía tây Ghats, v.v... được thể hiện thực tế hơn và tốt hơn trong IMD4 nhờ độ phân giải không gian cao hơn và mật độ trạm đo mưa cao hơn được sử dụng để phát triển nó.

#Lượng mưa #Dữ liệu lưới #Độ phân giải cao #Phân bố không gian #Ấn Độ #IMD4 #Khí hậu #Biến đổi khí hậu.
Tổng số: 399   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10